Напрями комп`ютерної лінгвістики

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

Білоруський державний університет ІНФОРМАТИКИ І РАДІОЛЕКТРОНІКІ
Кафедра інтелектуальних інформаційних технологій
РЕФЕРАТ
на тему:
«Напрями комп'ютерної лінгвістики»
МІНСЬК, 2008

Так як питань, що вивчаються комп'ютерної лінгвістикою, чимало, то з часом в неї виділився ряд напрямків, присвячених окремим аспектам автоматичної обробки природної мови. В даний час в комп'ютерній лінгвістиці виділяють п'ять основних напрямів (Інформатика).
1. Аналіз текстів на природній мові. Лінгвісти давно вивчають, як влаштований текст, і перш за все пропозиція, що грає роль цеглинки, з сукупності яких складається текст. Але лише з появою комп'ютерів ці дослідження набули новий напрямок. Група американських лінгвістів висунула зухвалу ідею, що отримала назву Джорджтаунський проект, - автоматизувати процес перекладу текстів з однієї мови на іншу, використовуючи для цього ЕОМ. Ідея зацікавила лінгвістів багатьох країн і активізувала роботи в галузі аналізу текстів.
У ході цих робіт треба було відповісти, перш за все, на запитання: "Чи існують суворі формальні правила, за якими будується структура пропозиції і структура тексту?" Якщо про структуру пропозиції лінгвісти накопичили багато матеріалу, то структура тексту ними не вивчалася.
У результаті проведених досліджень стало ясно, що за кожним текстом (в тому числі і за окремим реченням, що є свого роду міні-текстом) ховається не одна, а кілька формальних структур, які можна розділити на три рівні (Інформатика)
- Синтаксичний
- Семантичний
- Прагматичний.
Більш докладно ці та інші рівні аналізу текстів природної мови будуть розглянуті нижче.
Як вказувалося вище, напрямок аналізу текстів природною мовою з'явилося у зв'язку з бажанням вирішити проблему машинного перекладу. Машинний переклад - це автоматичний переклад текстів з однієї мови на іншу (наприклад, послівний переказ науково-технічної інформації, патентів, документів, інструкцій, програм ЕОМ з алгоритмічного на машинний мова), а також науковий напрямок, що охоплює коло проблем, які виникають при автоматизації перекладу. Система машинного перекладу зазвичай містить лінгвістичні описи вхідного і вихідного мов, тобто мов вихідного тексту і тексту, отриманого в результаті перекладу, і алгоритм, на основі якого виконується даний переклад (Інформатика).
З часом (у 50-х рр.. 20-го ст.) Проблема машинного перекладу переросла в окрему науково-технічну проблему і фактично знайшла риси окремого наукового напрямку з однойменною назвою. Цей напрямок виникло на стику таких наук, як математика, кібернетика, лінгвістика та програмування. Тим не менш, основу машинного перекладу як наукового напрямку складають результати, отримані в галузі комп'ютерної лінгвістики.
2. Синтез текстів на природній мові. Завдання синтезу може розглядатися як зворотна по відношенню до аналізу. Якщо задані деяка тема і мета майбутнього тексту, то можна вважати заданої прагматичну структуру тексту. Її треба декомпозіровать в прагматичні структури окремих пропозицій і для кожної пропозиції пройти всі етапи аналізу в зворотному напрямку. На сьогоднішній день тут ще маса невирішених проблем. Невідомо, як генерувати прагматичну структуру тексту з тих цілей, які стимулюють створення тексту. Незрозуміло, як цю структуру розбити на прагматичні структури пропозицій і як від цих приватних прагматичних структур перейти до глибинних семантичним структурам. Більш відомі методи подальшого руху шляхом генерації тексту.
Одним з перших прикладів природно-мовних систем, здатних синтезувати тексти, є автоматична система створення текстів чарівних казок, створена в Московському енергетичному інституті в 70-х рр.. і звана TALE (Інформатика). На першому кроці вона видає тексти приблизно такого вигляду: "Жив-був X. Не було у нього бажаного У. Став просити Х Бога. Бог обіцяв. З'явився У. Виріс У. Пішов раз Х і не велів У робити Z. Але У зробив Z. Повернувся X. У немає. Зрозумів X, що У зробив Z. Пішов Х шукати У. .. " У пам'яті розглянутої системи зберігалися дані для заповнення так званих актантів, а однакові змінні показують, що на ці місця всюди треба поставити одні й ті ж заповнювачі. Так виникає текст: "Жив-був цар. І не було у царя бажаного спадкоємця. Став цар просити Бога. Бог обіцяв. З'явився спадкоємець. Виріс спадкоємець ..." Ось приклад казки, складеної цією програмою.
ОДНОГО РАЗУ В тридев'ятому царстві, в тридесятому ДЕРЖАВІ ЖИВ ЦАР.
ЦАР МАВ ДОЧКА.
Цар відправив НА ПОЛЮВАННЯ пополювати.
ЦАР ЗАБОРОНИВ ДОЧКИ ВИХОДИТИ З ДОМУ.
ПОРУШИТИ ДОЧКА ЗАБОРОНА. Налетів Кощій.
УНІС Кощій ДОЧКА.
ІВАН відправитися світ за очі ШУКАТИ ДОЧКА.
ЧИ ДОВГО, КОРОТКО ЧИ ЙШОВ ІВАН. ЗУСТРІВ ІВАН старенька.
Старенька ГИНУТЬ, вмирали з голоду. ДОПОМІГ ІВАН Старенька, нагодують.
РОЗПОВІВ ІВАН Старенька, КУДИ ШЛЯХ ТРИМАЄ.
ДАЛА Старенька ІВАНУ клубочок, КУДИ покотився, ТУДИ І ЙДИ.
Похила ІВАН клубочок. ПІШОВ ДАЛІ ІВАН. ЗУСТРІВ ІВАН Старенький старенька. Старенький Старенька ГИНУТЬ БЕЗ ВОДИ. ДОПОМІГ ІВАН Старенький Старенька, напоїти.
РОЗПОВІВ ІВАН Старенький Старенька, КУДИ ШЛЯХ ТРИМАЄ.
ДАЛА Старенький Старенька ІВАНУ СРІБНИЙ клубочок, КУДИ покотився, ТУДИ І йди собі. Похила ІВАН СРІБНИЙ клубочок. ПІШОВ ДАЛІ ІВАН.
ЗУСТРІВ ІВАН зовсім стареньких старенька.
Зовсім стареньких Старенька ГИНУТЬ, падає під вагою ноші. ДОПОМІГ ІВАН зовсім стареньких Старенька донести НОШУ.
РОЗПОВІВ ІВАН зовсім стареньких Старенька, КУДИ ШЛЯХ ТРИМАЄ. ДАЛА зовсім стареньких Старенька ІВАНУ ЗОЛОТИЙ клубочок, Клубочок покотився, А ТИ ЗА НИМ ЙДИ.
Похила ІВАН ЗОЛОТИЙ клубочок. ПІШОВ ДАЛІ ІВАН.
ПРИЙШОВ ВІН У ПІДЗЕМНЕ ЦАРСТВО Кощія.
БАЧИТЬ ІВАН ЗАМОК ІЗ ЗОЛОТА І СРІБЛА. УВІЙШОВ ІВАН У ЗАМОК. Сидить у ЗАМКУ Кощій Безсмертний. ЗАПИТУЙТЕ Кощій ІВАНА: навіщо подарував ДО МЕНЕ?
ВІДПОВІДАЄ ІВАН Кощія: ШУКАЮ ДОЧКА Царський, ЩО ТИ УКРАВ.
ГОВОРИТЬ Кощій: виконані роботи, ЩО Я поставлю, - ТВОЯ Царівна, не виконано - ДО КІНЦЯ ЖИТТЯ ПІД ЗЕМЛЕЮ залишишся. Кощій ЗАДАТИ ІВАНУ РОБОТУ: ЗА ОДНУ НІЧ Вирубка дрімучий ліс, землю зорати, пшениця посіяна, БОРОШНО змолоти, ПИРОГОВ напекти І МЕНІ НА СТІЛ ПОДАТИ!
ІВАН ВИКОНАВ РОБОТУ, ПРИНІС ПИРОГИ. Кощій ПОСТАВИТИ ІВАНУ РОБОТУ: ЗА ОДНУ НІЧ БДЖІЛ розвести, ВІСК ЗІБРАТИ, ТАК З воску ПАЛАЦ ПОБУДУВАТИ.
ІВАН ВИКОНАВ РОБОТУ. До ранку-Світло було ГОТОВИЙ ПАЛАЦ з воску.
Кощій ЗАДАТИ ІВАНУ РОБОТУ: ПРИЙТИ НА ЗЕЛЕНИЙ ЛУГ, зловити там КОНЯ неїжджених, ТАК приїхав до мене на ТОМ КОНІ!
ІВАН ВИКОНАВ РОБОТУ, об'їздив КОНЯ. КІНЬ хитається, з рота ПІНА ПАДАЄ. ЗВІЛЬНИ ІВАН царівни.
ВЗЯВ ІВАН царівни. Повіз ІВАН Царівна ВО ПАЛАЦ. ОДРУЖИВСЯ ІВАН на царівну. ІВАН ОТРИМАВ півцарства.
В якості іншого прикладу системи автоматичного синтезу можна привести систему, яка вміє складати вірші. Прикладів таких систем вже чимало, хоча з складанням віршів справа дещо складніша. Програма в змозі врахувати характер рими, кількість складів у відповідних рядках вірша, метричну форму вірша і провести граматичний аналіз. Однак зміст майбутнього вірші значною мірою виявляється довільним і залежить від змісту вихідного словника. Ось приклад машинного вірші [ХХХ] (Інформатика).
Добрий майорить шелест
Плаче порожнеча
Слухають гойдалки
І співає біда
Стань покірно горі
Томно лише летить
І прозоро море
Таємно шелестить
І біжить земна
Непомітно тінь
Повільно лісова
Славить вологий день.
В даний час автоматичний синтез текстів необхідний також при створенні:
- Інтелектуальних систем, здатних пояснювати користувачеві хід вирішення тієї чи іншої задачі,
- Систем підтримки прийняття рішень, здатних допомагати користувачеві прийняти те чи інше рішення на основі вироблених альтернатив,
- Інформаційно-довідкових систем різного призначення, здатних підказати користувачу найбільш оптимальний шлях пошуку та / або замовлення тієї чи іншої інформації (наприклад, в системах замовлення квитків),
- Різних діалогових систем (див. нижче).
3. Розуміння текстів. Проблема розуміння текстів природною мовою включає не тільки лінгвістичні аспекти. З нею тісно пов'язані завдання, традиційно вирішуються в рамках психології, філософії та семіотики. Розповідаючи про проблеми аналізу текстів, ми кілька разів посилалися на те, що сам аналіз служить інструментом для розуміння змісту тексту. Мабуть, найважливіше значення проблема розуміння має у так званих діалогових системах.
На початку 70-х рр.. фахівці в галузі штучного інтелекту дивували далеких від науки людей системами спілкування на природній мові, що демонструють на перший погляд майже безмежні можливості створеного ними інтелектуального інтерфейсу спілкування. Будь-яка людина могла спілкуватися з системою на довільну тему, використовуючи все багатство доступного йому мови. При цьому система підтримувала розмову, вражаючи співрозмовника своїми здібностями. Ось один із прикладів такої розмови, в якому в якості інтелектуального інтерфейсу використовувалася програма, реалізована на ЕОМ, що отримала назву "Еліза" (Інформатика).
Співрозмовник: Сьогодні чудова погода, чи не так?
"Еліза": Ви любите прекрасну погоду?
С.: Звичайно. Хто ж її не любить?
"Е.": Так. Прекрасна погода - це добре.
С.: Цікаво, які види в цьому році на врожай?
"Е.": Вас це цікавить?
С.: Ну, більш-менш. А вас?
"Е.": Більш-менш.
С.: Але все ж таки, хотілося б, аби врожай був добрим.
"Е.": Я цілком згодна з вами.
Зовні діалог нагадує світську бесіду двох не надто знайомих людей. Це, швидше, гра у спілкування, ніж спілкування по суті. Але й така гра займає в житті людей чимале місце. "Еліза" у подібних розмовах виявляється цілком "на рівні". Багато хто навіть вважають, що їх просто розігрують і з ними спілкується не програма, реалізована на комп'ютері, а живий співрозмовник. Подібні приклади діалогових систем зараз можна знайти в мережі Інтернет, де ці системи отримали назву мовних чатів.
Рівень спілкування, який демонструють "Еліза" та інші подібні їй програми, по суті, найнижчий з усіх можливих. Це рівень так званого фактичного діалогу. У такому діалозі партнери (або один з них) практично не слухають один одного. Це лише видимість бесіди, а для підтримки її використовуються стандартні "домашні заготовки".
4. Пожвавлення тексту. Це одне з наймолодших напрямків у комп'ютерній лінгвістиці. Своєю появою вона зобов'язана персональним комп'ютерам, які вперше дали можливість організувати спілкування з користувачем не тільки шляхом обміну текстами, але і за допомогою зорових образів на екрані дисплея.
Однією з особливостей мислення людини (чи не основною для можливості самого мислення) є його разномодальную. Психологи користуються цим терміном, щоб підкреслити, що наші уявлення про навколишній світ і про нас самих можуть мати різну природу (різну модальність). Можна "мислити словами", але можна уявляти собі якісь зорові картинки, як часто буває в снах. Є люди, для яких багато спогадів складаються з запахів або смакових вражень. Словом, всі наші органи почуттів дають свою модальність у мисленні. Але дві модальності: символьна (текстова) і зорова - є для людини основними (Інформатика).
Легко перевірити, що між цими модальностями є досить тісний зв'язок. Зазвичай називання чогось або текстовий опис деякої ситуації відразу викликає зорові уявлення про ці об'єкти і ситуації. І навпаки, варто нам побачити щось, як ми тут же готові описати побачене за допомогою нашої рідної мови. Так текст і супутня йому зорова картина виявляються об'єднаними в нашій свідомості і інтегрованими в деяку єдність. Текст як би "живе" у вигляді деякого образного уявлення. І вивчення того, як відбувається ця інтеграція і як по одній складовій подання з'являється друга, - одна з цікавих завдань, що стоять перед фахівцями в області комп'ютерної лінгвістики та їх колегами - творцями інтелектуальних систем. Вже знайдені деякі важливі закони інтеграції текстів і зорових образів. Створені перші експериментальні моделі цього процесу і перші інтелектуальні системи, здатні описувати у вигляді тексту пропоновану їм картинку (наприклад, пейзаж), а також відтворювати одну з можливих картин, відповідають введеному в систему тексту.
5. Моделі комунікації. Поява штучних систем, здатних сприймати і розуміти людську мову (поки в дуже обмеженому обсязі) і тексти на природній мові, створило передумови для безпосереднього спілкування людини і комп'ютера. Це, у свою чергу, підвищило інтерес лінгвістів до процесів, супутнім організації та ведення діалогу. Прикладами можуть служити:
- Спосіб побудови сценарію діалогу на основі тих цілей, які активна сторона в діалозі ставить перед собою;
- Підтримка обраного сценарію з урахуванням інтересів партнера і його можливої ​​протидії тим сценарієм, який використовується;
- Знаходження коштів маскування справжніх намірів мовця;
- Організація пасивної підтримки комунікаційного процесу і т.д.
Ці п'ять напрямків, які активно розвиваються в комп'ютерній лінгвістиці, природно, не вичерпують всього змісту цієї науки. Але й сказаного цілком достатньо, щоб оцінити її важливість і значимість не тільки для самої лінгвістики, а й для створення технічних систем, за здібностями до діалогу, які не поступаються людині.

ЛІТЕРАТУРА
1. Апресян Ю.Д. Вибрані праці, тому I. Лексична семантика: 2-е вид., Испр. І доп. - М.: Школа «Мови російської культури», Видавнича фірма «Східна література» РАН, 1995
2. Апресян Ю.Д. Вибрані праці, том II. Інтегральне опис мови і системна лексикографія. - М.: Школа «Мови російської культури», 2005.
3. Попов Е.В. Спілкування з ЕОМ на природній мові. М. Наука. 2000.
Додати в блог або на сайт

Цей текст може містити помилки.

Програмування, комп'ютери, інформатика і кібернетика | Реферат
29.5кб. | скачати


Схожі роботи:
Завдання особливості основні напрями сучасної теоретичної лінгвістики
Комп ютерна технологія графогеометричного моделювання Взаємозвязок 2D 3D комп ютерної графіки
Комп ютерна технологія графогеометричного моделювання Взаємозвязок 2D 3D комп ютерної графіки
Злочини у сфері комп`ютерної інформації 2 Комп`ютерна злочинність
Енциклопедія комп`ютерної безпеки
Особливості комп`ютерної графіки
Поняття комп`ютерної мережі
Кабелю для комп`ютерної мережі
Забезпечення загальної комп`ютерної грамотності
© Усі права захищені
написати до нас